Document Loader

作者：游鱼思

loader的选择

PyPDF2

用途：PyPDF2 主要用于读取PDF文件，并对它们进行一些基本的操作，如合并、分割、旋转页面等。
文本提取：它可以用来提取PDF中的文本，但在处理复杂布局或非文本元素（如图像、表格）时可能不太准确。
易用性：PyPDF2 的接口相对简单，容易上手，适合需要进行PDF文档基本处理的用户。
性能：在处理大型PDF文件时，性能表现一般。
兼容性：能够处理不同版本的PDF文件，但可能在某些加密的PDF文件上遇到限制。

比如，就不支持中文高级编码/UniGB-UTF16-H。

PDFMiner

用途：PDFMiner 更专注于从PDF文档中提取详细信息，包括文本、布局和图像信息。
文本提取：它在文本提取方面更为强大，尤其擅长处理具有复杂布局的PDF文件，如包含多列的文档或含有特殊排版的文档。
易用性：PDFMiner 的功能更为全面和复杂，因此对新手来说可能较难上手。
性能：由于它更注重于文档的细节解析，因此在处理大型或复杂文档时可能相对较慢。
兼容性：同样能够处理不同版本的PDF文件，但在加密PDF处理上可能也有限制。

综合比较

如果是进行基本的PDF处理，如合并、分割或简单的文本提取，PyPDF2 是一个更简单、更快速的选择。
如果需要从PDF文件中提取复杂的布局和格式信息，或处理具有复杂排版的文档，PDFMiner 更适合您的需求。

在数据抽取或内容分析项目中，PDFMiner 往往是更好的选择；而在进行PDF文档的简单操作和处理时，PyPDF2 会更加便捷。